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APLICAÇÃO DOS MÉTODOS DESENVOLVIDOS NESTE TRABALHO 

Para facilitar a aplicação dos métodos desenvolvidos neste trabalho, apresentamos a 
seguir um resumo de como utilizar as tabelas. As justificativas e maiores detalhes 
encontram-se no corpo do trabalho. Ao usar as tabelas, valores intermediários podem 
ser obtidos por interpolação. O objeto é sempre a análise de amostras aleatórias de 
uma variável contínua com distribuição aproximadamente normal. 



TABELAS 1 e 2 - DESVIO MÁXIMO E AMPLITUDE DE AMOSTRAS NORMAIS 

Estas tabelas refletem o fato que, quanto maior tamanho da amostra, maior é a 
probabilidade de se encontrar pontos muito afastados da média. Tanto a amplitude, 
como o desvio máximo aumentam. 

Amplitude é a diferença entre os dois valores extremos da amostra: xmax- xmin. 
Desvio máximo é o afastamento do ponto mais distante da média : xmax - u.. 
A tabela 1 apresenta os desvios máximos, em função do tamanho N da amostra. A 
tabela 2 apresenta as amplitudes (metade). Os valores de Z indicados nas tabelas não 
são exatos; são os que, em média, podem ser esperados. As respectivas equações 
estão indicadas no final das tabelas. 

TABELA 1 - DESVIO MÁXIMO 



N 


Z 


N 


Z 


N 


z 


2 


0,674 


20 


2,099 


200 


2,922 


3 


1,052 


30 


2,263 


300 


3,046 


4 


1,264 


40 


2,374 


400 


3,132 


5 


1,408 


50 


2,456 


500 


3,197 


6 


1,516 


60 


2,522 


600 


3,249 


7 


1,602 


70 


2,576 


700 


3,293 


8 


1,673 


80 


2,622 


800 


3,331 


9 


1,733 


90 


2,662 


900 


3,363 


10 


1,786 


100 


2,698 


1000 


3,392 



N: número de pontos da amostra 

Z = (Xmax - U.) / O 

(u. é a média, o é o desvio padrão) 
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TABELA 2 -AMPLITUDE 



N 


Z 


N 


Z 


N 


z 


2 


0,431 


20 


1,909 


200 


2,776 


3 


0,802 


30 


2,084 


300 


2,905 


4 


1,022 


40 


2,201 


400 


2,994 


5 


1,175 


50 


2,287 


500 


3,062 


6 


1,289 


60 


2,356 


600 


3,116 


7 


1,381 


70 


2,414 


700 


3,161 


8 


1,457 


80 


2,462 


800 


3,199 


9 


1,521 


90 


2,504 


900 


3,234 


10 


1,576 


100 


2,542 


1000 


3,264 



N: número de pontos da amostra 

Z = (xmax- Xmin)x0,5 / O 

(o é o desvio padrão) 

Os valores de Z dependem da distribuição normal. A interpolação pode ser evitada 
usando-se uma planilha (Open Office, Excel 2010); os valores de Z podem ser obtidos 
em função de N pelas expressões: 

Para o desvio máximo: =INV.NORM(0,5 A (3/(B13-l))/2 +0,5;0;1) 

Para a amplitude: =INV.NORM((V3) A (V(B13-l))/2 +0,5;0;1) 

nestas expressões, B13 é a célula que contém N (número de pontos da amostra). 

EXEMPLOS: 

a) Numa amostra de 5 pontos, o valor máximo é 15 e o mínimo é 7. Quais são os 
valores aproximados da média e do desvio padrão? 

A média aproximada é (15 + 7) / 2 = 11 

A metade da amplitude é (15 - 7) / 2 = 4. Da tabela 2 acima, para N = 5, obtém-se 
Z = 1,175. O desvio padrão aproximado é: o = 4 / 1,175 = 3,4 

Observação: O intervalo de variação da média pode ser estimado utilizando os desvios 
máximos da tabela 1 (para 5 pontos, z = 1,408): 
Valor máximo da média: 7 + 1,408 x 3,4 = 11,8 
Valor mínimo da média: 15 - 1,408 x 3,4 = 10,2 

b) Numa amostra de 3 pontos, cuja média é 15, o maior valor é 22. Qual é o maior 
valor que pode ser esperado numa amostra de 200 pontos? 

Da tabela 1 obtemos: 
para N = 3, Z = 1,052 
para N = 200, Z = 2,922 

Z = (xmax - u.) / a (o valor de o não precisa ser calculado) 
xmax - u = 2,922 / 1,052 x (22 - 15) = 19,4 
O valor máximo é: xmax = 15 + 19,4 = 34,4 
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TABELA 3 - IDENTIFICAÇÃO DE PONTOS DISCREPANTES 

A identificação de um ponto estatisticamente discrepante é importante porque este 
ponto é uma indicação de que ocorreu uma anomalia no processo, um erro na 
medição, um erro grosseiro, ou uma flutuação estatística excepcional. Pontos 
estatisticamente discrepantes podem distorcer a estimativa da média. Por este motivo, 
é interessante eliminá-los da amostra. 

Para identificar os pontos discrepantes, usa-se a tabela 3. Dada uma amostra, calcula- 

se a média e o desvio padrão. A seguir, divide-se a diferença entre o valor de um ponto 

e a média, pelo desvio padrão. Compara-se o resultado z, em valor absoluto, com o 

limite zd da tabela. Se for maior, o ponto é discrepante: 

z= |(x-x)/o| 

x: média da amostra 

a: desvio padrão da amostra 

x é discrepante se z > zd 

Os pontos da amostra devem estar ordenados. Examina-se, inicialmente, o ponto mais 
afastado da média. Se ele for discrepante, é eliminado, observa ndo-se o seguinte. 
O ponto discrepante não deve ser eliminado, se a diferença em relação à média for 
menor que a diferença admissível d. A diferença admissível d é a maior diferença que 
ainda não é considerada significativa. É o erro aceitável. Ao definir um valor, deve-se 
ter em mente que erros menores que 1% são difíceis de serem obtidos. Em pesquisa 
tecnológica, às vezes se aceita erros de 10% ou mais. 

Eliminado o ponto, recalcula-se a média e o desvio padrão. O processo deve ser 
repetido, até que todos os pontos discrepantes sejam eliminados, ou até que tenham 
sido eliminados 1/3 dos pontos (a amostra restante não deverá conter menos de 2/3 dos 
pontos originais). A média e o desvio padrão, calculados com a amostra remanescente, 
representam melhor os valores verdadeiros. 



TABELA 3 - LIMITES DISCREPANTES - MÉTODO PROPOSTO 



N 


Zd 


N 


Zd 


N 


Zd 


2 




20 


2,231 


200 


3,025 


3 


1,121 


30 


2,388 


300 


3,145 


4 


1,391 


40 


2,494 


400 


3,229 


5 


1,565 


50 


2,573 


500 


3,292 


6 


1,672 


60 


2,637 


600 


3,343 


7 


1,754 


70 


2,691 


700 


3,386 


8 


1,822 


80 


2,734 


800 


3,422 


9 


1,881 


90 


2,773 


900 


3,454 


10 


1,931 


100 


2,807 


1000 


3,483 



Nesta tabela, N é o número de pontos da amostra e Zd é o limite discrepante. 

Para amostras de 6 ou mais pontos, pode-se evitar a interpolação, calculando os limites 
discrepantes zd numa planilha (Open Office, Excel 2010), através da expressão: 

=INV.NORM(0,608914 A (3/(D13 -l))/2 +0,5;0;1) 
onde D13 é a célula que contém N (número de pontos da amostra). 
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EXEMPLO: 

Pretende-se adquirir um eletrodoméstico com preço aproximado de R$ 1000,00. Neste 
nível de custo, considera -se que uma diferença de R$ 20,00 não é significativa (d = 20). 
Foram obtidos 3 preços: 

a) R$ 800,00, R$ 1000,00 e R$ 1700,00. O preço mais alto é discrepante? 
Aplicando o método proposto, temos: 

média = 1166,67 

desvio padrão = 472,58 

diferença = 1700,00 - 1166,67 = 533,33 

z = 533,33/ 472,58 = 1,128 

da tabela 3, para N = 3, zd = 1,121 

como z é maior que zd, o ponto é discrepante. A diferença é maior que d, portanto 
significativa, confirmando que o ponto deve ser eliminado. 

Observação: O valor de z deve ser calculado, com precisão, até a terceira casa decimal. 

b) R$ 975,00, R$ 1000,00, R$ 1000,00. O preço mais baixo é discrepante? 
Aplicando o método proposto, temos: 

média = 991,67 

desvio padrão = 14,43 

diferença = 991,67 - 975,00 = 16,67 

z = 16,67 / 14,43 = 1,155 

da tabela 3, para N = 3, zd = 1,121 

como z é maior que zd, o ponto é discrepante. Porém a diferença é menor que 
diferença admissível d. O ponto não deve ser eliminado. 

Observação: Quando uma amostra tem vários valores iguais, qualquer ponto um pouco 
diferente tenderá a ser indicado como discrepante; neste caso, o critério decisivo é a 
diferença admissível d. 



TABELA 4 - TAMANHO DA AMOSTRA 

Em qualquer experimento, enfrenta-se o problema de determinar o tamanho da 
amostra. Quanto maior a amostra, mais preciso será o resultado do experimento. Por 
outro lado, o custo de obtenção da amostra aumenta. 

Para aplicar o método proposto, são necessários valores estimados da diferença 
admissível d e o desvio padrão o. Com a relação d/a, o tamanho N é determinado 
usando a tabela 4. Os tamanhos indicados são os mínimos recomendados. Nada 
impede que sejam usadas amostras maiores, por exemplo, quando a população 
amostrada é heterogénea, visando garantir que a amostra seja representativa. 
Após realizar a amostragem, deve ser verificada a existência de pontos discrepantes, 
conforme o tópico anterior. Os pontos discrepantes devem ser eliminados e 
substituídos por outros, completando o tamanho N requerido. 
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TABELA 4 - TAMANHO DA AMOSTRA - MÉTODO PROPOSTO 



N 


d/a 


N 


d/a 


N 


d/a 


N 


d/a 


1 


>1,29 


12 


0,201 


35 


0,074 


90 


0,031 


2 


0,862 


14 


0,174 


40 


0,065 


100 


0,028 


3 


0,647 


16 


0,154 


45 


0,059 


110 


0,026 


4 


0,518 


18 


0,138 


50 


0,053 


120 


0,024 


5 


0,432 


20 


0,125 


55 


0,049 


130 


0,022 


6 


0,371 


22 


0,115 


60 


0,045 


140 


0,021 


7 


0,325 


24 


0,106 


65 


0,042 


150 


0,020 


8 


0,289 


26 


0,098 


70 


0,039 


160 


0,019 


9 


0,260 


28 


0,091 


75 


0,036 


180 


0,017 


10 


0,237 


30 


0,086 


80 


0,034 


200 


0,015 



N: número de pontos da amostra 

d/a: diferença admissível / desvio padrão estimado 

Numa planilha (Open Office, Excel 2010), o valor de d/a pode ser obtido mediante a 

expressão: =(2,58/(D13+l))*(l+ 0,001*D13) 

onde D13 é a célula que contém N (número de pontos da amostra). 

Em geral é possível obter uma estimativa razoável do desvio padrão da população, 
analisando o comportamento esperado da variável. Tendo-se uma idéia da faixa de 
variação, pode-se admitir, grosso modo, que ela equivale a 5 ou 6 desvios padrão. 
Após realizar alguns testes (pelo menos três), o valor do desvio padrão poderá ser 
recalculado, revisando-se, se necessário, o tamanho da amostra. 
A diferença admissível d é a maior diferença, na média calculada, que ainda não é 
considerada significativa. É o erro aceitável. Ao definir um valor, deve-se terem mente 
que erros menores que 1% são difíceis de serem obtidos. Em pesquisa tecnológica, às 
vezes se aceita erros de 10% ou mais. De qualquer modo, uma vez definida a diferença 
admissível, o sistema de medição deve ser escolhido com a precisão adequada. O erro 
de medição deve ser bem menor que a diferença admissível. 

EXEMPLO: 

Deseja-se pesquisar o preço de um equipamento industrial cujo valor, numa primeira 
estimativa, é de R$ 150.000,00, com uma faixa de variação entre R$ 100.000,00 e R$ 
200.000,00. 

Quantas propostas deverão sersolicitadas? Em geral, neste tipo de pesquisa, os custos 
não são desprezíveis; a elaboração e a análise das propostas sempre exigem um tempo 
considerável. Portanto, deve-se procurara quantidade mínima necessária. 
O desvio padrão aproximado é (200.000 - 100.000) / 5 = 20.000 

A diferença admissível d deve ser definida conforme o objetivo da pesquisa. Se, por 
exemplo, o objetivo for uma estimativa preliminar de custos, uma diferença de 10% do 
preço esperado é aceitável; portanto, 
d = 150.000 x 0,10= 15.000 
d/a = 15.000 / 20.000 = 0,75 
Da Tabela 4, obtemos N = 3 

Assim, para uma estimativa preliminar de custos, bastam três propostas. 
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AMPLITUDE, PONTOS DISCREPANTES E TAMANHO DE AMOSTRA EM ESTATÍSTICA 

Karl Grube, Engenheiro Químico, formado pela UFPR 
Gerhard Grube, Engenheiro Mecânico, formado pela UFPR 
Curitiba, Junho de 2012. 

No presente trabalho são desenvolvidos métodos para a determinação da amplitude 
(intervalo, "range") de uma amostra, identificação de pontos discrepantes ("outliers") e 
determinação do tamanho da amostra ("sample size"). 

Estes assuntos são pouco ventilados em livros-texto de estatística e as soluções 
oferecidas nem sempre são satisfatórias, quando aplicadas a problemas de engenharia. 
Apresentamos algumas alternativas, mais baseadas no bom senso do que em 
conhecimento teórico. 

O trabalho está dividido em três partes, cada uma relativa a um tema. O objeto é 
sempre a análise de amostras aleatórias de uma variável contínua com distribuição 
aproximadamente normal. 



1 - PRIMEIRA PARTE: AMPLITUDE DE AMOSTRAS NORMAIS 

Por Karl Grube e Gerhard Grube, Junho de 2012 

1.1 - INTRODUÇÃO E RESUMO 

Definimos como amplitude, também chamada intervalo ("range"), de uma amostra a 
diferença entre os dois valores extremos da amostra. Desvio máximo é o afastamento 
do ponto mais distante da média. 

É sabido que a amplitude aumenta com o tamanho da amostra. Quanto maior a 
amostra, maior a probabilidade de se encontrar valores muito altos ou muito baixos. 
O conhecimento da relação entre o número de pontos da amostra e a amplitude é útil 
em diversas situações: 

-quando se quer saber quais valores poderão ser atingidos em uma amostra de 
determinado tamanho 

-quando se deseja estimar a média e o desvio padrão conhecendo-se apenas os 
valores extremos de uma amostra 

-quando se quer saber se um determinado ponto da amostra é compatível com o 
tamanho da mesma (análise de pontos discrepantes). 

Nesta primeira parte procura-se desenvolver um método para determinara amplitude 
e o desvio máximo de amostras normais, conforme definidos acima. Analisando as 
probabilidades da distribuição normal, são deduzidas equações para a amplitude e 
para o desvio máximo. Os resultados numéricos estão apresentados no Item 1.3. 
As equações foram verificadas experimentalmente por meio de algumas amostras 
normais (anexo 1) e de um grande número de amostras aleatórias (anexo 2). 
Aproximadamente, os resultados confirmam as equações teóricas. 
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1.2 - DESENVOLVIMENTO TEÓRICO DO MÉTODO 



A amplitude de uma amostra normal está relacionada com as probabilidades da 
distribuição normal. Dado um intervalo ± z o, a probabilidade de um ponto qualquer 
cair neste intervalo é p e a probabilidade do ponto cair fora é 1 - p. A probabilidade de 
um segundo ponto cair no intervalo é p A 2, enquanto a probabilidade do segundo 
ponto cair fora é 1 - p A 2. 

E assim por diante. A probabilidade p pode ser obtida de tabelas da distribuição 
normal em função do valor de z. Consideremos um exemplo. Dado um intervalo ± 1,5 
a, obtém-se da tabela p = 0,866, que é a probabilidade de um ponto qualquer cair 
neste intervalo. A probabilidade dele cair fora é 1 - 0,866 = 0,134. A probabilidade de 
um segundo ponto cair no intervalo é 0,866 A 2 = 0,750,a probabilidade dele cair fora é 
1 - 0,750 = 0,250. 

À medida que aumenta o número de pontos no intervalo, diminui a probabilidade do 
próximo ponto cair dentro, enquanto a probabilidade de cair fora aumenta. Com cinco 
pontos no intervalo, a probabilidade do próximo ponto cair fora já é 0,513, ou seja, 
maior do que cair dentro. 

Quando a probabilidade do último ponto da amostra cair dentro do intervalo for igual à 
de cair fora, admite-se que o ponto está localizado exatamente sobre o limite do 
intervalo. Isto permite determinar a posição do último ponto (figuras A e B). 




a) Desvio máximo 

Considerando o exposto acima, a posição do ponto mais afastado da média, que pode 

estar localizado à direita ou à esquerda da média (figura A), pode ser determinada 

fazendo: 

p A n = 1 - p A n 

2 p A n = 1 

p A n = 1/2 

donde se obtém 

p = (3/2) A (Vn) equação [1] 

n é o número de pontos no intervalo (o número de pontos na amostra é N = n+1). 
Com o valor de n calcula-se p. Da tabela de distribuição normal, obtém-se o 
afastamento z. Vejamos, por exemplo, uma amostra de três pontos. Neste caso, n = 2, 
portanto p = 0,7071. Da tabela, obtém-se z = 1,052. Este é o desvio máximo esperado. 
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b) Amplitude 

A amplitude pode ser obtida com raciocínio semelhante, porém considerando que o 
ponto está somente num dos lados da curva (figura B). Neste caso, 
p A n = (l- p A n)/2 
donde se obtém 

p = (l/3) A (Vn) equação [2] 

Por exemplo, numa amostra de três pontos, n = 2, portanto p = 0,5774. Da tabela da 
distribuição normal, obtemos z = 0,802. A amplitude esperada é 2 x 0,802 = 1,604. 

c) Limite discrepante 

Se a probabilidade do último ponto da amostra cair fora do intervalo for menor do que 
cair dentro, este tende a ser discrepante (isto é, um ponto não pertencente à 
população). Genericamente o limite pode ser definido por 

p A n = g (1 - p A n) equação [3] 

onde g é um fator maior que 1. Este fator é, até certo ponto, arbitrário. Quanto maior o 
seu valor, menos pontos serão considerados discrepantes. Mais adiante, na segunda 
parte deste trabalho, esta concepção é usada para elaborar um método de 
identificação de pontos discrepantes. 



1.3 - AMPLITUDE E DESVIO MÁXIMO EM AMOSTRAS NORMAIS 

A tabela 1 abaixo apresenta os desvios máximos calculados coma equação teórica, em 
função do tamanho N da amostra. A tabela 2 apresenta as amplitudes (metade). 
Os valores de Z são os médios esperados; não são valores exatos. Valores 
intermediários podem ser obtidos por interpolação. As respectivas equações 
encontram-se no final das tabelas. 

TABELA 1 - DESVIO MÁXIMO 



N 


Z 


N 


Z 


N 


z 


2 


0,674 


20 


2,099 


200 


2,922 


3 


1,052 


30 


2,263 


300 


3,046 


4 


1,264 


40 


2,374 


400 


3,132 


5 


1,408 


50 


2,456 


500 


3,197 


6 


1,516 


60 


2,522 


600 


3,249 


7 


1,602 


70 


2,576 


700 


3,293 


8 


1,673 


80 


2,622 


800 


3,331 


9 


1,733 


90 


2,662 


900 


3,363 


10 


1,786 


100 


2,698 


1000 


3,392 



N: número de pontos da amostra 

Z = (xmax- u.) / o (xmax é o maior ponto da amostra, u. é a média e o é o desvio padrão) 
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TABELA 2 -AMPLITUDE 



N Z 


N 


Z 


N 


Z 


2 0,431 


20 


1,909 


200 


2,776 


3 0,802 


30 


2,084 


300 


2,905 


4 1,022 


40 


2,201 


400 


2,994 


5 1,175 


50 


2,287 


500 


3,062 


6 1,289 


60 


2,356 


600 


3,116 


7 1,381 


70 


2,414 


700 


3,161 


8 1,457 


80 


2,462 


800 


3,199 


9 1,521 


90 


2,504 


900 


3,234 


10 1,576 


100 


2,542 


1000 


3,264 


N: número de pontos da amostra, Z 


= (xmax - Xmin 


)x0,5/o 



(xmax e xmin são, respectivamente, o maior e o menor ponto da amostra; o é o desvio 
padrão). 

Numa planilha (Open Office, Excel 2010) os valores de Z podem ser obtidos em função 
de N pelas expressões: 

Para o desvio máximo: =INV.NORM(0,5 A (V(B13-l))/2 +0,5;0;1) 
Para a amplitude: =INV.NORM((l/3) A (l/(B13-l))/2 +0,5;0;1) 

em que B13 é a célula que contém N (número de pontos da amostra). 

Verifica-se que a amplitude aumenta indefinidamente com o tamanho da amostra. 
Quanto maior a amostra, maior será o afastamento de um ponto extremo. 
Em amostras de 3 pontos pode-se esperar que o ponto mais afastado (desvio máximo) 
esteja a cerca de lo da média; em amostras de 17 pontos o afastamento máximo é de 
2o; com 260 pontos, chega a 3o. O gráfico 1 a seguir apresenta as curvas da amplitude 
e do desvio máximo, conforme as tabelas acima. Também está desenhada a curva dos 
limites discrepantes, obtidos pelo método desenvolvido na segunda parte. 

GRÁFIC0 1 - AMPLITUDES F. DESVIOS MÁXIMOS EM AMOSTRAS NORMAIS 
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1.4- VERIFICAÇÃO DO MÉTODO 

Com o objetivo de verificar a exatidão das equações teóricas desenvolvidas, foram 
realizadas duas verificações experimentais. Numa verificação mais grosseira (anexo 1), 
foram utilizadas algumas amostras hipotéticas aproximadamente normais. Para uma 
verificação experimental mais exaustiva (anexo 2) foram obtidas as estimativas do 
desvio máximo e da amplitude para dez mil amostras extraídas aleatoriamente da 
distribuição normal. Os detalhes constam dos anexos. Aproximadamente, os resultados 
experimentais confirmam as equações teóricas. 

1.5 - EXEMPLOS 

a) Numa amostra de 5 pontos, o valor máximo é 15 e o mínimo é 7. Quais são os 
valores aproximados da média e do desvio padrão? 

A média aproximada é (15 + 7) / 2 = 11 

A metade da amplitude é (15 - 7) / 2 = 4. Da tabela 2 acima, para N = 5, obtém-se 
Z = 1,175. O desvio padrão aproximado é o = 4 / 1,175 = 3,4 

Observação: O intervalo de variação da média pode ser estimado utilizando os desvios 
máximos da tabela 1 (para 5 pontos, z = 1,408): 
Valor máximo da média: 7 + 1,408 x 3,4 = 11,8 
Valor mínimo da média: 15 - 1,408 x 3,4 = 10,2 

b) Numa amostra de 3 pontos, cuja média é 15, o maior valor encontrado é 22. Qual é 
o maior valor que pode ser esperado numa amostra de 200 pontos? 

Da tabela 1 obtemos: 
para N = 3, Z = 1,052 
para N = 200, Z = 2,922 

Z = (Xmax- U.) / O 

O valor de a não precisa ser calculado: 
xmax - u = 2,922 / 1,052 x (22 - 15) = 19,4 
O valor máximo é xmax = 15 + 19,4 = 34,4 

ANEXOS RELATIVOS À PRIMEIRA PARTE 

ANEXO 1: Verificação com algumas amostras normais. 
ANEXO 2: Verificação com amostras aleatórias 
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2 - SEGUNDA PARTE: IDENTIFICAÇÃO DE PONTOS DISCREPANTES 

Por Karl Grube e Gerhard Grube, Junho de 2012 

2.1 - INTRODUÇÃO E RESUMO 

Estatisticamente, ponto discrepante ("outlier") é um ponto que está muito afastado da 

média de uma amostra, sendo improvável que pertença à população. 

A identificação de um ponto estatisticamente discrepante é importante, porque este 

ponto sempre é uma indicação de que ocorreu: 

-uma anomalia no processo 

-um erro na medição 

-um erro grosseiro 

-uma flutuação estatística excepcional 

Um ponto estatisticamente discrepante pode distorcer a estimativa da média. Por este 
motivo, é interessante eliminá-lo da amostra. 

Nesta segunda parte, a na lisa -se a aplicação do método do teste t de Student, 
recomendado na literatura. Esse método, no caso de amostras pequenas, pode indicar 
limites superiores altos demais (aceitando pontos que, pelo bom senso, deveriam ser 
rejeitados) e limites inferiores muito baixos (aceitando valores negativos, que não têm 
sentido em muitas situações reais). Em amostras maiores, tende a rejeitar pontos 
válidos pertencentes a amostras normais, o que também é um contra -senso. 
Propõe-se um método que procura evitar estas deficiências utilizando dois critérios. 
O critério 1, para amostras de até 6 pontos, parte de uma hipótese inicial diversa da 
adotada no método do teste t, resultando em limites mais adequados, principalmente 
para grandezas que são, por natureza, não-negativas. 

Para amostras maiores, foi elaborado o critério 2, que leva em conta o aumento da 
amplitude com o tamanho da amostra, evitando que pontos normais sejam rejeitados. 
Os dois critérios estão reunidos em uma tabela de limites discrepantes em função do 
tamanho da amostra, apresentada no Item 2.4. 

O método proposto foi comparado com outros métodos. No anexo 4 comenta-se o 
critério de Chauvenet, que apresenta resultados em parte semelhantes. No anexo 5 os 
limites são comparados com os recomendados por Grubbs. Outro método citado na 
literatura, o "box&whisker", é discutido no anexo 6. 

2.2 - O MÉTODO DO TESTE t DE STUDENT 

A identificação de pontos discrepantes consiste em determinar o limite xd, além do 

qual um ponto da amostra é considerado discrepante. Na literatura (Ref. 1) recomenda- 

se utilizar o método do teste t de Student para duas médias amostrais. 

Neste teste supõe-se, como hipótese inicial, que as duas médias são iguais. Esta 

hipótese é geralmente conveniente, porque o "pool" das amostras permite uma 

estimativa melhor dos parâmetros (Ref. 2, pág. 240). Consequentemente, a diferença é 

referida ao desvio padrão combinado das duas amostras: 

t = (xi - x2) / V( variância da média 1 + variância da média 2 ) 
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onde xi e x2 são as médias das duas amostras. Ao aplicar o método para identificar 
pontos discrepantes, considera-se que a amostra 2 contém só um ponto (o ponto 
analisado). Obtém-se, para o valor discrepante: 

xd = x ± t o V(l/n + 1) equação [4] 

Onde x, o e n são os valores para a amostra excluindo o ponto em análise. O valor de t 
é obtido de tabelas para n - 1 graus de liberdade conforme o nível de confiança 
desejado. 

No anexo 3 estão apresentados os cálculos de xd com os quais foram traçadas as curvas 
do gráfico 2 abaixo, designadas pelos níveis de significância a = 0,025 e a = 0,05. 
Neste gráfico, os valores são da amostra sem o ponto em análise. A ordenada n é igual 
ao tamanho da amostra menos um. A abcissa indica os valores discrepantes xd para 
uma média igual a zero e desvio padrão igual a um. 

Verifica-se que, para amostras muito pequenas, os valores de xd obtidos por este 
método são bastante altos. Diminuem à medida que o número de pontos aumenta, 
tendendo a ficar constantes. 



2.3 - O MÉTODO PROPOSTO 

a) Critério 1 - Para amostras pequenas 

Ao contrário do método anterior, partimos da hipótese de que as médias das duas 
amostras são diferentes. Não há vantagem em incluirá amostra 2 na estimativa dos 
parâmetros, já que ela consiste de um só ponto, que ainda é suspeito de estar "fora". 
Portanto, a diferença é referida apenas ao desvio padrão da média da amostra 1 (ou 
seja, da amostra excluindo o ponto em análise). O valor discrepante passa a ser: 

xd = x±ko/Vn equação [5] 

Consideramos o fator k constante, igual para todos os tamanhos de amostra. Deste 
modo, o cálculo de xd fica extremamente simples, sem necessidade de recorrer a 
ta belas. 

Para utilizar a fórmula, é preciso estabelecer um valor adequado para k. Este valor será 
determinado com base em duas premissas: 

-Inúmeras grandezas reais, tais como massa, volume, energia, produção, preços, etc. 
são, por natureza, positivas. Embora apresentem, frequentemente, distribuições 
normais, não podem assumir valores negativos. 

-Pode-se considerar que praticamente todos os pontos de uma população normal 
estão compreendidos no intervalo ± 3a. 

Em consequência impõe-se, como limite discrepante inferior, o valor zero. Para que a 
probabilidade de aceitar valores negativos seja pequena, o limite discrepante inferior 
deverá estará -3o da média. 

Uma amostra de três pontos, nestas condições, poderia ser a seguinte: 
xl = 2 x2 = 3 x3 = 4 

para a amostra completa (3 pontos) obtemos x = 3 e o = 1, 
o limite discrepante inferior éxd = x- 3o = 3- 3xl = 
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O valor de k pode ser obtido transformando a fórmula [5] acima e fazendo xd = 0, com 
os demais valores calculados sem o primeiro ponto (x = 3,5, o = 0,7071, n = 2). 
Obtém-se k = 7,0 e a fórmula para o limite discrepante fica 

xd = x ± 7 o / Vn equação [6] 

Com os limites determinados pela equação [6], praticamente todos os pontos 
negativos serão rejeitados, se o coeficiente de dispersão (o/p) for menor que 1/3. Com 
coeficientes de dispersão maiores, a probabilidade de aceitar valores negativos 
aumenta. Assim, as grandezas que podem assumir valores negativos também estão 
consideradas. A equação [6] tem aplicação geral. 

Esta é a forma mais adequada para tratar o problema. O recurso da transformação log- 
normal, para evitar os valores negativos, nem sempre é correto e, dependendo dos 
limites, a solução não é satisfatória (ver o anexo 5, item c). 

Com a equação [6] acima foi traçada a curva designada por Limite K no gráfico 2 abaixo. 
Os valores de xd diminuem quando n aumenta, tendendo a se aproximar da média. 
Verifica-se que os valores de xd, para amostras muito pequenas, são bem menores que 
os do método do teste t. 

b) Critério 2 - Para amostras maiores 

Um fato importante, não considerado no método do teste t, é o seguinte. A amplitude 

de uma amostra normal aumenta com o tamanho da amostra. Por outro lado os 

valores de xd definidos acima diminuem com o tamanho da amostra. 

Para que os pontos de uma amostra normal não sejam considerados discrepantes, o 

limite deve ficar sempre à direita da curva dos desvios máximos, definida na primeira 

parte. Isto significa que, nas amostras maiores, o critério deve mudar. 

A situação fica mais clara no gráfico 3, que considera a amostra completa, incluindo o 

ponto em análise (a ordenada agora é N, o tamanho da amostra). 

A curva à esquerda representa o desvio máximo de amostras normais. As bolinhas 

amarelas representam amostras normais, nas quais o último ponto foi substituído pelo 

valor discrepante xd, calculado pelo critério 1. 

Começando à direita da curva do desvio máximo, os pontos xd (bolinhas amarelas) 
inicialmente se afastam, depois se aproximam novamente da curva, cruzando-a em 
aproximadamente N=9. A partir daí (pelo critério 1), pontos normais seriam 
considerados discrepantes. Para evitar isto, o limite discrepante (pelo critério 2) deve 
prosseguir paralelamente e à direita da curva do desvio máximo. Um início adequado é 
o ponto que está mais afastado desta curva, N=6. A partir deste ponto, o limite 
discrepante é determinado pela equação [3] apresentada na primeira parte: 
p A n = g (1 - p A n) 

Para N = 6, o limite discrepante pelo critério 1 é zd = 1,6723. Da curva normal, a 
probabilidade de um ponto estar no intervalo ± 1,6723 o é 0,90554. Com n = 5, 
encontra-se g = 1,5568. Resolvendo para o valor de p, obtemos: 

p = 0,6089 A (l/n) equação [7] 

Com estes valores de p, os limites pelo critério 2 são obtidos da distribuição normal. 
A curva segundo o critério 2 (em vermelho, no gráfico 3) apresenta, coincidentemente, 
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valores muito próximos dos obtidos por Chauvenet (Ref. 3). O critério de Chauvenet é 
comentado no anexo 4. 



GRÁFICO 2 - VALORES DISCREPANTES xd 
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GRÁFICO 3 - LIMITES DISCREPANTES - MÉTODO PROPOSTO 
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2.4 - LIMITES DISCREPANTES - MÉTODO PROPOSTO 

O método proposto pode ser aplicado mediante o uso de uma única tabela englobando 
os dois critérios: 



TABELA 3 - LIMITES DISCREPANTES - MÉTODO PROPOSTO 



N 


Zd 


N 


Zd 


N 


Zd 


2 




20 


2,231 


200 


3,025 


3 


1,121 


30 


2,388 


300 


3,145 


4 


1,391 


40 


2,494 


400 


3,229 


5 


1,565 


50 


2,573 


500 


3,292 


6 


1,672 


60 


2,637 


600 


3,343 


7 


1,754 


70 


2,691 


700 


3,386 


8 


1,822 


80 


2,734 


800 


3,422 


9 


1,881 


90 


2,773 


900 


3,454 


10 


1,931 


100 


2,807 


1000 


3,483 



Nesta tabela, N é o número de pontos da amostra e Zd é o limite discrepante. 
Os valores para N até 6 foram obtidos pelo primeiro critério. Os valores para amostras 
maiores foram obtidos pelo segundo critério. Os exemplos abaixo esclarecem como 
foram obtidos os valores da tabela 3. 

CRITÉRIO 1 (para N < 6) 

Parte-se de uma amostra aproximadamente normal, de tamanho N, na qual o último 

ponto é substituído pelo valor discrepante xd. 

Admitindo uma amostra com N = 3: xi = 8, x2 = 10, x3 = xd 

Com os dois primeiros pontos, obtemos 

x(n) = 9, o(n) = 1,414 

o valor de xd é obtido com a equação [6]: 

xd = x + 7a / Vn = 16,0 

com o último ponto discrepante, a amostra fica: xi = 8, x2 = 10, x3 = 16 

x(N) = 11,333, o(N) = 4,163 

zd = (16,0 - 11,333) / 4,163 = 1,121 

CRITÉRIO 2 (para N > 6) 

O limite discrepante é determinado em função da probabilidade p, equação [7]. 

Para uma amostra com N = 9 (n = 8): 

p= 0,6089 A (]/n) = 0,9399 

obtém-se, da curva normal, zd = 1,881 

Para amostras de 6 ou mais pontos (critério 2) os limites discrepantes zd podem ser 
obtidos por meio de uma planilha (Open Office, Excel 2010) usando a expressão: 

=INV.NORM(0,608914 A (V(D13-l))/2 +0,5;0;1) 
em que D13 é a célula que contém N (número de pontos da amostra). 
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2.5 - APLICAÇÃO DO MÉTODO PROPOSTO 



O uso da tabela 3 é simples. Dada uma amostra, calcula-se a média e o desvio padrão. 
A seguir, divide-se a diferença entre o valor de um ponto e a média, pelo desvio 
padrão. Compara-se o resultado, em valor absoluto, com o limite da tabela, 
(interpolado, se necessário). Se for maior, o ponto é discrepante: 

z= |(x-x)/o| 

x é discrepante se z > zd 

Os pontos da amostra devem ser ordenados. Examina-se inicialmente o ponto mais 
afastado da média. Se ele for discrepante, é eliminado, observa ndo-se o seguinte. 
O ponto discrepante não deve ser eliminado, se a diferença em relação à média for 
menor que a diferença admissível d. A diferença admissível d é a maior diferença que 
ainda não é considerada significativa (vero item 3.7 da terceira parte). 
Eliminado o ponto, recalcula-se a média e o desvio padrão. O processo deve ser 
repetido, até que todos os pontos discrepantes sejam eliminados, ou até que tenham 
sido eliminados l/i dos pontos. Devem restar, na amostra, pelo menos 2/3 dos pontos 
originais. A média e o desvio padrão, calculados com a amostra remanescente, 
representam melhor os valores verdadeiros. 

2.6 - COMPARAÇÃO ENTRE O MÉTODO DO TESTE t E O MÉTODO PROPOSTO 

a) avaliação do método do teste t de Student 
Neste método, como visto, xd = x ± t o V(l/n + 1). 

Para avaliar este método, foram imaginadas algumas amostras aproximadamente 
normais, para as quais foram calculados os valores de xd, conforme o anexo 3. 
Os valores de xd foram então avaliados apenas com base no bom senso. 

Considerando uma amostra de 3 pontos (n = 2): 
xl = 8, X2 = 10, X3 = 12 

usando xl e x2 obtemos: x = 9 o = 1,414 V(l/n + 1) = 1,225 

coma=0,05: xd = 9 + 6,31 x 1,414 x 1,225 = 19,9 (alto, quase o dobro da média) 

coma=0,025: xd = 9 + 12,71 x 1,414 x 1,225 = 31,0 (alto demais) 

Considerando uma amostra de 4 pontos (n = 3): 
xl = 8, X2 = 10, X3 = 12, X4 = 14 

com os três primeiros, obtemos: x = 10 o = 2 V(l/n + 1) = 1,155 
com a=0,05: xd = 10 + 2,92 x 2 x 1,155 = 16,7 (razoável) 
com a=0,025: xd = 10 + 4,30 x 2 x 1,155 = 19,9 (razoável) 

Considerando uma amostra de 8 pontos (n = 7): 
x: 7 9 11 13 
f: 13 3 1 

excluindo o último ponto, temos: x = 9,57 o = 1,512 V(l/n + 1) = 1,069 

com a=0,05: xd = 9,57 + 1,94 x 1,512 x 1,069 = 12,7 (baixo, menor que o último ponto) 

com a=0,025: xd = 9,57 + 2,45 x 1,512 x 1,069 = 13,5 (razoável) 
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Considerando uma amostra de 9 pontos (n = 8): 
x: 6 8 10 12 14 
f: 1 2 3 2 1 

excluindo o último ponto, temos: x = 9,5 a = 2,07 V(]/n + 1) = 1,061 

com a=0,05: xd = 9,5 + 1,89 x 2,07 x 1,061 = 13,6 (baixo, menor que o último ponto) 

com a=0,025: xd = 9,5 + 2,36 x 2,07 x 1,061 = 14,7 (razoável) 

Constata-se que o método do teste t, embora teoricamente fundamentado, nem 
sempre apresenta resultados condizentes com o bom senso. 

Nas amostras menores, os valores de xd são muito altos. Como vimos anteriormente, o 
limite discrepante inferior não deve ser menor que zero. Logo, sendo a distribuição 
simétrica, o limite discrepante superior não poderá ser maior que o dobro do valor 
médio da variável. No primeiro exemplo analisado acima, a média dos 3 pontos é 10. 
O valor máximo não deveria ultrapassar 20. Portanto o limite xd = 31, calculado pelo 
teste t, é alto demais (um problema semelhante ocorre no método de Grubbs, 
analisado no anexo 5). Nas amostras maiores o método do teste t acusa, como 
discrepantes, pontos pertencentes à amostra normal, o que é um contra-senso. 

b) avaliação do método proposto 

O método proposto foi avaliado considerando os mesmos exemplos acima. Os valores 
de xd foram determinados usando a tabela 3. O inverso da tabela requer uso de 
tentativas; aumenta-se o valor do último ponto de cada amostra até que seja atingido o 
limite zd. Foram obtidos os resultados abaixo. 

amostra de 3 pontos: para zd = 1,121, xd = 16,0 (razoável) 



Vê-se que o método proposto não apresenta os problemas constatados no método do 
teste t. Nas amostras menores, os limites são inferiores ao dobro do valor médio da 
variável. Nas amostras maiores, os limites estão acima dos valores máximos das 
amostras. 

c) justificativas do método proposto 

Comparado com o método do teste t, o método proposto apresenta as seguintes 
va ntagens: 

-A hipótese adotada (de médias diferentes) é mais adequada para avaliar pontos 
discrepa ntes. 

-Com grandezas por natureza positivas, o método não aceita valores negativos ou 
muito altos (mais que o dobro) em relação à média. 

-O método considera o aumento da amplitude da amostra com o tamanho da mesma. 
-É muito fácil de usar. 

O método proposto também foi comparado com outros métodos. As vantagens do 
método proposto em relação aos métodos de Chauvenet, de Grubbs e ao 
"box&whisker" ficam evidentes nos anexos 4, 5 e 6. 



4 pontos : 

8 pontos: 

9 pontos: 



para zd = 1,391, xd 
para zd = 1,822, xd 
para zd = 1,881, xd 



18,1 
13,9 
15,3 



(razoável) 
(razoável) 
(razoável) 
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2.7- EXEMPLO 



Pretende-se adquirir um eletrodoméstico com preço aproximado de R$ 1000,00. Neste 
nível de custo, considera-se que uma diferença de R$ 20,00 não é significativa {d = 20). 
Foram obtidos 3 preços: 

a) R$ 800,00, R$ 1000,00 e R$ 1700,00. O preço mais alto é discrepante? 
Aplicando o método proposto, temos: 

média = 1166,67 

desvio padrão = 472,58 

diferença = 1700,00 - 1166,67 = 533,33 

z = 533,33/ 472,58 = 1,128 

da tabela 3, para N = 3, zd = 1,121 

como z é maior que zd, o ponto é discrepante. A diferença é maior que d, portanto 
significativa, confirmando que o ponto deve ser eliminado. 

Observação: Pelo método proposto, o valor discrepante superior é R$ 1600,00. 
No método de Grubbs, o valor discrepante superior seria R$ 2810,00. Pelo teste t de 
Student (nível a=0,025) seria ainda mais alto, R$ 3100,00. Portanto, em ambos, o preço 
mais alto não seria considerado discrepante. 

Observação: O valor de z deve ser calculado, com precisão, até a terceira casa decimal. 

b) R$ 975,00, R$ 1000,00, R$ 1000,00. O preço mais baixo é discrepante? 
Aplicando o método proposto, temos: 

média = 991,67 

desvio padrão = 14,43 

diferença = 991,67 - 975,00 = 16,67 

z = 16,67 / 14,43 = 1,155 

da tabela 3, para N = 3, zd = 1,121 

como z é maior que zd, o ponto é discrepante. Porém a diferença é menor que d; o 
ponto não deve ser eliminado. 

Observação: Quando uma amostra tem vários valores iguais, qualquer ponto um pouco 
diferente tenderá a ser indicado como discrepante; neste caso, o critério decisivo é a 
diferença admissível d. 



ANEXOS RELATIVOS À SEGUNDA PARTE 

ANEXO 3 - Exemplos de cálculo de xd pelo método do teste t 
ANEXO 4-0 critério de Chauvenet 
ANEXO 5 - Comparação com o método de Grubbs 
ANEXO 6-0 método "box&whisker" 
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3 - TERCEIRA PARTE: TAMANHO DA AMOSTRA 

Por Karl Grube e Gerhard Grube, Junho de 2012. 

3.1 - INTRODUÇÃO E RESUMO 

Em qualquer experimento, enfrenta-se o problema de determinar o tamanho da 
amostra ("sample size"). Quanto maior a amostra, mais preciso será o resultado do 
experimento. Por outro lado, o custo de obtenção da amostra aumenta. 
O método indicado na literatura para determinar o tamanho da amostra, baseado na 
diferença entre a média da amostra e a média verdadeira, pode resultar em amostras 
muito grandes. Se o custo de obtenção da amostra é elevado, a amostragem pode se 
revelar inviável. 

Nesta terceira parte propomos um método alternativo que indica tamanhos mais 
razoáveis. No método aqui proposto, limita-se o tamanho da amostra quando um 
ponto hipotético adicional, arbitrariamente alto, não pode alterar significativamente a 
média e esta fica praticamente estável. Com este critério, elaborou-se uma tabela, 
apresentada no Item 3.4, que permite determinar o tamanho da amostra, em função 
da relação entre o desvio padrão e a diferença admissível. 

Sem deixar de ser confiável, o método proposto resulta em tamanhos bem menores 
que o da literatura. Relativamente poucos pontos são suficientes para estabilizar a 
média. Deste modo, sendo altos os custos, a amostragem pode ser viabilizada. 
O método foi verificado por simulação com amostras aleatórias extraídas de uma 
distribuição normal (anexo 7). 

Um aspecto não considerado no método da literatura é que, aumentando o tamanho 
da amostra, a contribuição de cada ponto adicional para a precisão do resultado 
diminui, até atingir o ponto em que se torna desprezível ou nula, ou seja, que existe 
um tamanho máximo para a amostra. Esta questão é examinada no anexo 8. 

3.2 - MÉTODO DA LITERATURA 

Conforme a literatura, o tamanho N da amostra pode ser estabelecido se forem 
conhecidos, ao menos aproximadamente, o desvio padrão o da população e o erro e 
(diferença entre a média da amostra e a média verdadeira). O tamanho da amostra 
aumenta coma relação o/e. 
A literatura apresenta a seguinte equação: 

N = (zo/e) A 2 equação [8] 

em que z = afastamento da média conforme o nível de confiança desejado. 

Num exemplo didático apresentado na Ref. 2 (pág. 201), para um nível de confiança de 

90% (z = 1,65), e = 1 e o = 10, o tamanho requerido é N = 273. 

Se os custos de amostragem forem elevados, um número tão alto provavelmente 
representaria um problema intransponível na realização de um projeto. 
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3.3 - DESENVOLVIMENTO DO MÉTODO PROPOSTO 



Aumenta ndo-se o tamanho de uma amostra, cada ponto adicional tem uma influência 
menor sobre o valor da média calculada. Por exemplo, o peso de um terceiro ponto no 
cálculo da média é l/i, já de um décimo ponto acrescentado à amostra vai ser apenas 
3/10, e assim por diante. As flutuações da média calculada tendem a diminuir e a média 
tende a ficar estável. Atingida certa estabilidade, há pouco benefício em prosseguir 
com a amostragem. Este pode ser um critério válido para determinar o tamanho da 
amostra. 

Com relação a este tipo de abordagem, Pi I la r (Ref. 4, pág. 6) aponta o problema de que 
a percepção de estabilidade é afetada pela sequência real dos pontos (uma flutuação 
grande no início dá a impressão de estabilidade; já no final, a impressão é inversa). 
No método proposto este problema é evitado, porque o tamanho da amostra é 
definido somente pela diferença causada pelo ponto, não importando a sua posição; 
como se verá, o valor de N deduzido abaixo independe da ordem na qual o ponto 
extremo xd é agregado à amostra. 

a) Equação do tamanho da amostra 

A idéia básica do método é definir o tamanho da amostra quando um ponto hipotético 
adicional, arbitrariamente alto, não pode mais alterar significativamente a média. Com 
isto, garante-se que a média fica relativamente estável. O tamanho N da amostra 
necessário para que isto ocorra é deduzido a seguir. 

Sejam x a média e o o desvio padrão calculados para uma amostra de tamanho N. Seja 
xd um ponto extremo escolhido arbitrariamente, igual a 
xd = x + z' o 

sendo z' definido pelo nível de confiança desejado. A nova média, incluindo o ponto 
adicional xd, é 

x' = (N x x + x + z' o)/(N+l) 

A alteração na média, causada pelo ponto adicional, não deverá ser maior que d, a 
diferença admissível em relação à média calculada: 
x' - x < d 

Substituindo e transformando, obtemos: 

N > z'a/d - 1 equação [9] 

Verifica-se que o valor de N independe da ordem em que o ponto xd foi agregado à 
amostra. Nesta expressão, o termo z'a/d não é elevado ao quadrado e resultará sempre 
em valores de N menores que a equação [8]. 

Para o exemplo citado no item 3.2 acima, o tamanho da amostra para d = 1, o = 10, 
considerando z' = 2,58 (correspondente a um nível de confiança de 99%), passa a ser 
N = 2,58 x 10 - 1 = 24,8 = 25 
que é um tamanho de amostra bem mais razoável. 

b) Intervalo de confiança da média 

À medida que o tamanho da amostra aumenta, a diferença d é atingida muito antes do 
erro e. Assim, com relativamente poucos pontos, já se obtém uma média estável, com 
a qual se pode estimara média verdadeira. 
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Para estimar a média verdadeira, define-se um erro e' com o novo tamanho da 
amostra, empregando a equação [8] transformada: 
e' = zo/VN. 

o intervalo de confiança da média verdadeira é dado por 

u. = x±e'=x±zo/VN equação [10] 

No exemplo em questão, para um nível de confiança de 90% (z = 1,65) e N=25: 
e'= 1,65 x 10/V25 = 3,3 

A nova estimativa da média verdadeira é, portanto 
u. = x ±3,3 

Assim, aplicando o método proposto, reduziu-se o tamanho da amostra de 273 para 25 
pontos; por outro lado, o intervalo de confiança (90%) da média verdadeira é 3,3 vezes 
maior. O intervalo de confiança maior é o preço que se paga pela economia nos custos 
de amostragem. Entretanto, o importante é que se pode ter uma elevada confiança 
(99%) de que o valor calculado da média não mudará por uma diferença maior que d. 

c) Efeito da amplitude da amostra 

O valor de N é dado pela equação [9]. Explicitada para o valor de d/a, a equação fica 

d/o = z' / (N+l) equação [11] 

Rigorosamente, o valor a ser escolhido para z' na equação [11] não é independente do 
tamanho da amostra. Tendo em vista que a amplitude de uma amostra aumenta com o 
tamanho da mesma, o valor de z' também deve aumentar. Verificou-se, pela simulação 
realizada (anexo 7), que um fator de correção é necessário para considerar este efeito. 
O fator de correção, determinado no anexo 7 (item a) é: 



h = 1+ 0,001 N 

Escolhendo um nível de confiança de 99% (z' 
equação final para o valor de d/a é: 

d/o = 2,58/(N+l) x (1 + 0,001 N) 



= 2,58) e agregando o fator de correção, a 

equação [12] 



3.4 - TAMANHO DA AMOSTRA - MÉTODO PROPOSTO 

A tabela 4 abaixo apresenta os valores de d/a em função do tamanho da amostra, 
determinados conforme a equação [12]. Com esta tabela, dado um valor de d/a, pode- 
se determinar o tamanho N da amostra. 
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TABELA 4 - TAMANHO DA AMOSTRA - MÉTODO PROPOSTO 



N 


d/a 


N 


d/a 


N 


d/a 


N 


d/a 


1 


>1,29 


12 


0,201 


35 


0,074 


90 


0,031 


2 


0,862 


14 


0,174 


40 


0,065 


100 


0,028 


3 


0,647 


16 


0,154 


45 


0,059 


110 


0,026 


4 


0,518 


18 


0,138 


50 


0,053 


120 


0,024 


5 


0,432 


20 


0,125 


55 


0,049 


130 


0,022 


6 


0,371 


22 


0,115 


60 


0,045 


140 


0,021 


7 


0,325 


24 


0,106 


65 


0,042 


150 


0,020 


8 


0,289 


26 


0,098 


70 


0,039 


160 


0,019 


9 


0,260 


28 


0,091 


75 


0,036 


180 


0,017 


10 


0,237 


30 


0,086 


80 


0,034 


200 


0,015 



N: número de pontos da amostra 

d/a: diferença admissível / desvio padrão estimado 

Numa planilha (Open Office, Excel 2010), o valor de d/a pode ser obtido mediante a 

expressão: =(2,58/(D13+l))*(l+ 0,001*D13) 

em que D13 é a célula que contém N (número de pontos da amostra). 

Os valores da equação [12] estão representados pela linha amarela no gráfico 4 
a seguir. Para comparação, a linha reta em azul indica os valores pelo método da 
literatura (para um nível de confiança de 90%). Fica evidente a grande redução nos 
tamanhos de amostra, proporcionada pelo método proposto. 



GRÁFICO 4 - TAMANHO DA AMOSTRA - MÉTODO PROPOSTO 





2 


'd/n 










































+ 


















































































































































— Tam 


lanho 




amostra 


( 


it 


cratura) 


































































































1) 


1 










































































--' 


n iimiin 


« 


dn nmastr; 








































u 


d< 


proposto) 
















































































II. 














































11 










































N 






1 
















10 
















1 00 




► 



N: tamanho da amostra 

d/a: diferença admissível / desvio padrão estimado 
Obs: gráfico log-log 
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3.5 - APLICAÇÃO DO MÉTODO PROPOSTO 



Para aplicar o método, deve-se ter uma estimativa da diferença admissível e uma 
estimativa do desvio padrão. Os tamanhos indicados na tabela 4 acima são os mínimos 
recomendados para tornar estável a média calculada. Nada impede que sejam usadas 
amostras maiores, por exemplo, quando a população amostrada é heterogénea, 
visando garantir que a amostra seja representativa. 

Após realizar a amostragem com os N pontos da tabela 4, deve ser verificada a 
existência de pontos discrepantes, conforme a segunda parte deste trabalho. Os pontos 
discrepantes devem ser eliminados e substituídos por outros, completando o tamanho 
N requerido. 

A média calculada é a melhor estimativa da média verdadeira, cujo intervalo de 
confiança pode ser determinado conforme a equação [10] do item 3.3. 

Cabe aqui mencionar outro problema apontado por Pi I la r (Ref. 4, pág. 6), de que a 
precisão desejada pode ser atingida antes da média se tornar estável (o que levaria a 
interromper a amostragem cedo demais). A observação não se aplica ao método 
proposto, porque o tamanho N é definido pela diferença máxima possível, não pela 
real, que é menor. Assim, mesmo que a relação d/a desejada já tenha sido atingida, 
deve-se prosseguir a amostragem até chegar ao valor N recomendado na tabela 4, 
quando a média fica estável. 

3.6- VERIFICAÇÃO DO MÉTODO PROPOSTO 

Para verificaro método, foram realizadas simulações de amostragens aleatórias de uma 
distribuição normal com média u. = 10 e desvio padrão o = 1. Foram obtidas quatro mil 
amostras para diversos valores de N. Os resultados são mostrados no anexo 7. Todos os 
valores de d/a obtidos nas simulações encontram-se abaixo dos indicados na tabela 4 
do item 3.4. Isto confirma que os tamanhos de amostra recomendados pelo método 
proposto são adequados para os casos reais. O nível de confiança do método é superior 
a 99%. Os valores medianos de d/a obtidos nas simulações variam aproximadamente 
proporcionais a l/N. 

3.7 - ESTIMATIVA DA RELAÇÃO d/a 

O tamanho da amostra deve ser determinado em função da relação entre a diferença 
admissível d e o desvio padrão estimado da população, o. 

Em geral é possível obter uma estimativa razoável do desvio padrão, analisando o 
comportamento esperado da variável. Tendo-se uma idéia da faixa de variação, pode- 
se admitir, grosso modo, que ela equivale a 5 ou 6 desvios padrão. Após realizar alguns 
testes (pelo menos três), o valor do desvio padrão poderá ser recalculado, revisando- 
se, se necessário, o tamanho da amostra. 

A diferença admissível d é a maior diferença, na média calculada, que ainda não é 
considerada significativa, face os objetivos da pesquisa. A sua estimativa pode ser bem 
difícil; é preciso avaliar o efeito da diferença sobre os objetivos finais da pesquisa, que 
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muitas vezes não são bem conhecidos. Por exemplo, no desenvolvimento de um 
processo industrial, seria necessário estimar o efeito da diferença admissível sobre o 
resultado económico do processo. 

Muitas vezes a única saída é considerara diferença admissível igual a um erro aceitável 
no valor da variável. Não se deve escolher um erro pequeno demais. Erros menores 
que 1% são difíceis de serem obtidos. Em pesquisa tecnológica, às vezes se aceita erros 
de 10% ou mais. De qualquer modo, uma vez definida a diferença admissível, o sistema 
de medição deve ser escolhido com a precisão adequada. O erro de medição deve ser 
bem menor que a diferença admissível. 

3.8 - TAMANHO MÁXIMO DA AMOSTRA 

As relações d/o diminuem com o tamanho da amostra, até se tornarem desprezíveis ou 
nulas. Neste ponto, foi atingido um tamanho máximo razoável da amostra; não 
compensa acrescentar mais pontos. No anexo 8 apresentamos razões para afirmar que, 
quando os custos de amostragem são significativos, dificilmente se justificam amostras 
com mais de 30 pontos; outra conclusão é que não há interesse em amostras com mais 
de 200 pontos, mesmo que os custos de amostragem sejam muito baixos. 

3.9- EXEMPLO 

Deseja-se pesquisar o preço de um equipamento industrial cujo valor, numa primeira 
estimativa, é de R$ 150.000,00, com uma faixa de variação entre R$ 100.000,00 e 
R$ 200.000,00. 

Quantas propostas deverão sersolicitadas? Em geral, neste tipo de pesquisa, os custos 

não são desprezíveis; a elaboração e a análise das propostas sempre exigem um tempo 

considerável. Portanto, deve-se procurara quantidade mínima necessária. 

O desvio padrão aproximado é (200.000 - 100.000) / 5 = 20.000 

A diferença admissível d deve ser definida conforme o objetivo da pesquisa. Se, por 

exemplo, o objetivo for uma estimativa preliminar de custos, uma diferença de 10% do 

preço esperado é aceitável; portanto, 

d = 150.000 x 0,10 = 15.000 

d/a = 15.000 / 20.000 = 0,75 

Da Tabela 4, obtemos N = 3 

Assim, para uma estimativa preliminar de custos, bastam três propostas. 

Observação: Embora esta quantidade não seja grande, pode-se ter confiança que uma 
proposta adicional não irá alterar o valor médio calculado por uma diferença maior que 
±15.000. Se o valor médio calculado é 150.000, uma diferença maior só poderia ser 
causada por uma proposta adicional maior que 210.000 ou menor que 90.000, 
portanto fora da faixa estimada da variável. 

ANEXOS RELATIVOS À TERCEIRA PARTE 

Anexo 7 - Simulação de amostragens reais 

Anexo 8 - Limites máximos para o tamanho da amostra 
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ANEXO 1 (da primeira parte) 



VERIFICAÇÃO COM ALGUMAS AMOSTRAS NORMAIS 

A equação para o desvio máximo foi verificada utilizando-se algumas amostras 
hipotéticas aproximadamente normais. Para estas amostras foram calculados o desvio 
padrão e o desvio máximo em relação à média (tabela 5). Estes pontos foram locados 
no gráfico 5 (quadrados verdes). Como esperado, os pontos situam-se em geral à 
esquerda da curva teórica. 

Na tabela 6 algumas destas amostras foram modificadas, deslocando alguns pontos 
para o centro, sem alterar a simetria. Com isto, as amostras passam a apresentar um 
pico mais alto que o normal e os pontos extremos tendem a ficardiscrepantes. Locados 
no gráfico (triângulos roxos), verifica-se que se situam à direita da curva de desvios 
máximos, conforme esperado. 

GRÁFICO 5 - VERIFICAÇÃO COM AMOSTRAS NORMAIS 
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N: número de pontos da amostra 



Z: afastamento = (x - x) / o 



TABELA 5 - AMOSTRAS APROXIMADAMENTE NORMAIS (média = 10,0) 



N 


x /freq 




















o 


z 


3 
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2,14 
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7/S 
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11A0 


13fi 


15A 
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2,20 
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TA 


86 


9A5 


10/20 


1ÍA5 


12* 


13A 








1,234 


2,43 


128 


3A 


5/7 


7£1 


9£5 


11)35 


13/11 


15/7 


17A 






2,656 


2,64 


256 


W 


7/S 


8/28 


9£6 


10/70 


11/5& 


12/28 


13/8 


14A 




1,417 


2,82 


512 


IA 


3fi 


5£6 


7/84 


9A26 


1ÍA26 


13/84 


15/36 


17/6 


19A 


3,003 


3,00 



N: número de pontos da amostra 

x / freq: valor / f reqiiência 

a: desvio padrão da amostra 

z: afastamento do maior ponto (desvio máximo) 
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TABELA 6 - AMOSTRAS MODIFICADAS (média = 10,0) 



N 


x / f req 
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10# 
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N: número de pontos da amostra 

x /freq: valor/frequência 

o: desvio padrão da amostra 

z: afastamento do maior ponto (desvio máximo) 



ANEXO 2 (da primeira parte) 
VERIFICAÇÃO COM AMOSTRAS ALEATÓRIAS 

Para uma verificação mais exaustiva obteve-se amostras aleatórias da distribuição 
normal (média 10, desvio padrão 1), usando a função =INV.NORM(ALEATÓRIO();10;1) 
da planilha Excel 2010. Foram obtidas dez mil amostras de cada tamanho para os 
seguintes tamanhos: 2, 3, 5, 10, 20, 100 e 1000. 

a) Os desvios máximos esperados foram estimados da seguinte maneira: 
Para um determinado valor de N, determinou-se: 

-a média de cada uma das amostras 
-o desvio padrão da amostra 

-a diferença entre o maior ponto da amostra e a média da amostra 

-a diferença entre a média da amostra e o menor ponto 

-selecionou-se a maior das duas diferenças acima 

-dividiu-se a diferença selecionada pelo desvio padrão da amostra 

A mediana dos dez mil resultados para cada tamanho foi locada no gráfico 6 contra o 

valor de N (bolinhas azuis). Neste mesmo gráfico, a linha azul representa os valores 

teóricos. Os valores experimentais se situam próximos da linha teórica. 

b) A amplitude também foi verificada, através da mesma série, calculando a metade da 
diferença entre o maior ponto da amostra e o menor. A média dos dez mil resultados 
também foi locada no gráfico 6. 

Os pontos desta série (bolinhas pretas) se localizam em geral próximo à linha teórica 
(em preto); a maior diferença ocorre nas amostras de 2 pontos; nestas, os valores 
experimentais estão cerca de 0,1o acima do valor teórico. 

Moroney (Ref. 5, pág. 155), publicou valores da amplitude para N de 2 até 10, sem 
indicar como foram obtidos. Estes estão representados no gráfico pelos triângulos 
amarelos. A proximidade com as bolinhas pretas confirma o procedimento 
experimental aqui adotado. 
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N: número de pontos da amostra 
Z: afasta mento= (x - x) / a 



ANEXO 3 (da segunda parte) 

EXEMPLOS DE CÁLCULOS PELO MÉTODO DO TESTE t 



Cálculo dos valores de xd pelo método do teste t de Student 



n 


g.l. 


V(j/n + 1) 


t(a=0,025) 


Xd/o 


t(a=0,05) 


Xd/o 


2 


1 


1,2247 


12,706 


15,561 


6,314 


7,733 


3 


2 


1,1547 


4,303 


4,969 


2,920 


3,372 


4 


3 


1,1180 


3,182 


3,557 


2,353 


2,631 


7 


6 


1,0690 


2,447 


2,616 


1,943 


2,077 


8 


7 


1,0607 


2,365 


2,509 


1,895 


2,010 


19 


18 


1,0260 


2,101 


2,156 


1,734 


1,779 


41 


40 


1,0121 


2,021 


2,045 


1,684 


1,704 


100 


99 


1,0050 


1,987 


1,997 


1,663 


1,671 



n: número de pontos da amostra, menos um 
g.l.: graus de liberdade 

t(a): valor do t de Student para o nível de significância a 
xd/o = t V(l/n + 1) 
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ANEXO 4 (da segunda parte) 
O CRITÉRIO DE CHAUVENET 

No Apêndice D do livro de Vuolo (Ref. 3), é apresentado o critério de Chauvenet, na 
forma de uma tabela de limites discrepantes em função do tamanho da amostra. Eles 
estão muito próximos dos limites determinados (para amostras maiores) nesta segunda 
parte. Chauvenet definiu como limites, intervalos simétricos da distribuição normal 
com a probabilidade 

p = 1 - V2 N 

Abaixo estão relacionados alguns dos limites constantes na Ref. 3 (a tabela só começa 
com N = 8), em comparação com os aqui obtidos: 



N 


Chauvenet 


Critério 2 


8 


1,86 


1,82 


10 


1,96 


1,93 


12 


2,04 


2,01 


15 


2,13 


2,11 


200 


3,02 


3,02 


500 


3,29 


3,29 


1000 


3,48 


3,48 



N: número de pontos da amostra 



A coincidência é notável, considerando que no presente trabalho a probabilidade para 
o limite discrepante foi obtida por um raciocínio diferente, resultando também numa 
fórmula bastante diferente: 

p = 0,6089 A (Vn) onde n = N - 1 

Para menos de 8 pontos, os limites de Chauvenet são amplos demais (talvez por esta 
razão, Vuolo os omitiu), apresentando problemas semelhantes aos encontrados no 
teste t de Student e no método de Grubbs, analisado no anexo 5. 
O método proposto, indicando limites mais adequados para os tamanhos menores, 
pode ser considerado uma complementação útil do critério de Chauvenet. 
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ANEXO 5 (da segunda parte) 



COMPARAÇÃO COM O MÉTODO DE GRUBBS 
a) comparação entre os limites 

Um método bastante divulgado na literatura foi desenvolvido por Grubbs. Esse autor 
apresenta, na Ref. 6, os procedimentos que devem ser seguidos para a identificação de 
pontos discrepantes. Analisaremos aqui os limites recomendados na pág. 4. Estes 
limites são apresentados na forma de tabela em função de N, dos quais reproduzimos, 
abaixo, apenas os pontos iniciais. Para comparação, colocamos os limites desenvolvidos 
no presente trabalho. Os dados mais completos estão representados no gráfico 7, 
a seguir. 

TABELA 7 - LIMITES DISCREPANTES (COMPARAÇÃO COM GRUBBS) 



N 


Limites de Grubbs 


Método 




1% 


2,5% 


5% 


Proposto 


3 


1,15 


1,15 


1,15 


1,121 


4 


1,49 


1,48 


1,46 


1,391 


5 


1,75 


1,71 


1,67 


1,565 


6 


1,94 


1,89 


1,82 


1,672 


7 


2,10 


2,02 


1,94 


1,754 



N: número de pontos da amostra 



GRÁFICO 7 - LIMITES, COMPARAÇÃO COM GRUBBS 
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N: número de pontos da amostra 
Z: afastamento, (x - x) / o 
%: nível de significância 



Observa-se de imediato, que todos os limites de Grubbs são bem mais altos que os 
encontrados aqui (a proximidade para as amostras menores é só aparente; como se 
verá adiante, uma pequena diferença entre os limites implica, na realidade, em uma 
grande diferença nos valores discrepantes). Consequentemente, os limites de Grubbs 
tendem a acusar menos pontos discrepantes. Uma simulação mostrou que o critério de 
Grubbs (nível 5%) rejeita menos de 1/3 dos pontos rejeitados pelo método proposto. 
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Tendo em vista que as curvas são semelhantes, a razão poderia estar nos níveis de 
confiança adotados. No método proposto, os limites são bastante restritivos, porque 
um foco principal do método é o tratamento adequado de grandezas que, por 
natureza, só podem ser positivas. Os limites restritivos diminuem a probabilidade de 
aceitar valores negativos, principalmente nas amostras menores. 

b) comparação entre os valores discrepantes 

A diferença entre os dois métodos fica mais evidente quando se calcula os valores 
discrepantes xd decorrentes dos respectivos limites. Para isto, recorremos a algumas 
das amostras aproximadamente normais utilizadas na primeira parte deste trabalho 
(anexo 1, tabela 5). Todas as amostras apresentam um valor médio igual a 10, com 
desvios padrão variando entre 1,41 e 2,58. Com os limites da tabela acima, foram 
determinados (por tentativas) os valores discrepantes xd. Os resultados constam na 
tabela a seguir. 

TABELA 8 - VALORES DISCREPANTES (COMPARAÇÃO COM GRUBBS) 

N Valores Discrepantes Inferiores Valores Discrepantes Superiores 







Grubbs 




Método 




Grubbs 




Método 




1% 


2,5% 


5% 


Proposto 


1% 


2,5% 


5% 


Proposto 


3 


-8,1 


-8,1 


-8,1 


4,0 


28,1 


28,1 


28,1 


16,0 


4 


-5,6 


-0,8 


2,7 


6,0 


25,6 


20,8 


17,3 


14,0 


5 


1,4 


4,2 


5,5 


7,0 


18,6 


15,8 


14,5 


13,0 


6 


-0,6 


1,6 


3,4 


5,4 


20,6 


18,4 


16,6 


14,6 


7 


-1,6 


0,9 


2,4 


4,6 


21,6 


19,1 


17,6 


15,4 



N: número de pontos da amostra 

Conforme observado acima, vê-se que, para N = 3, a diferença entre o limite de Grubbs 
e o do método proposto (1,15 contra 1,121, tabela 7), aparentemente pequena, resulta 
numa diferença muito grande nos valores discrepantes superiores (28,1 contra 16,0, 
tabela 8). 

Se a grandeza em questão é positiva, são inadmissíveis valores negativos e, por 
simetria, os valores maiores que 20. Constata-se que os limites de Grubbs resultam, em 
alguns casos, em valores discrepantes negativos e outros maiores que 20. 
É preciso ressaltar que, numa distribuição normal, valores negativos só podem ocorrer, 
com probabilidade significativa, se o coeficiente de dispersão (a/p) for maior que 3/3. 
Como nas amostras analisadas os coeficientes de dispersão estão entre 0,141 e 0,258, 
os valores discrepantes negativos não se justificam. Os limites de Grubbs são amplos 
demais. 

Pelo método proposto, nas amostras analisadas, nenhum valor discrepante é negativo 
ou maior que 20 (tabela 8). A maioria das variáveis com que se lida em engenharia são 
grandezas positivas; valores negativos são impossíveis. Somos da opinião que um 
método para identificação de pontos discrepantes só terá aplicação geral se considerar 
adequadamente este fato. 

c) utilização da transformação log-normal 

Poderia ser contraposto, ao que foi dito acima, que os limites negativos sempre 
poderão ser evitados transforma ndo-se a distribuição amostrai em uma distribuição 
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log-normal. Nesta transformação (que, rigorosamente, só deveria ser usada para tornar 
normais algumas distribuições assimétricas), os valores da variável são substituídos 
pelos seus logaritmos. Demonstraremos a seguir que, quando os limites são muito 
amplos, este recurso não é satisfatório. 

Tomamos como exemplo a amostra de 3 pontos do anexo 1, tabela 5: 

Xl=8, X2 = 10, X3 = 12 

Analisemos, inicialmente, os efeitos da transformação sobre os limites de Grubbs. 

Para esta amostra, os valores discrepantes (sem transformação) conforme Grubbs 

constam da tabela 8 acima. O valor superior é 28,1 e o inferior é negativo, -8,1. 

A transformação é feita substituindo os valores de x da amostra pelos seus logaritmos; 

obtemos: 

xl=2,0794, X2=2,3026, X3=2,4849 

para achar o valor discrepante superior, são necessárias tentativas. Aumenta -se o valor 
de x3 até atingir o limite discrepante especificado (1,15, segundo Grubbs). 
obtém-se xd=4,33 

de modo semelhante, o valor discrepante inferior é encontrado diminuindo-se o valor 
de xi até atingir o limite, 
obtém-se xd=0,65 

operando a transformação inversa (antilog xd), obtém-se os valores discrepantes: 

superior: 75,9 
inferior: 1,9 

Vemos que a transformação log-normal eliminou o valor negativo, mas os resultados 
não são razoáveis. O valor discrepante inferior deixou de ser negativo, mas ainda é 
muito baixo. O valor discrepante superior ficou desproporcionalmente alto. 
A transformação log-normal não resolve os problemas causados pelos limites muito 
amplos de Grubbs. 

Com o método proposto, não ocorrem estes problemas. Sem transformação, os valores 

discrepantes já são positivos (superior: 16,0, inferior: 4,0, tabela 8). 

Transformando a amostra, o limite do método proposto (1,121) resulta nos valores 

discrepantes transformados: 

superior xd=2,97 

inferior xd=l,75 

a transformação inversa dá os valores discrepantes: 

superior: 19,5 
inferior: 5,8 

Vê-se que, mesmo aplicando a transformação, os valores discrepantes pelo método 
proposto continuam perfeitamente razoáveis. 
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ANEXO 6 (da segunda parte) 
O MÉTODO "BOX&WHISKER" 

Este método é mencionado na Ref. 7. Consiste na elaboração e avaliação de um gráfico, 
onde se destacam a mediana, os quartis e os pontos mais afastados. 
Usa-se a mediana (em vez da média) e a distância interquartílica (em vez do desvio 
padrão), para evitar a influência dos pontos extremos. Isto tornaria o método 
"robusto", não sendo necessário, para a análise, excluir os pontos discrepantes. São 
estabelecidos dois limites: 

Ponto discrepante: xd = md ± 1,5 deq 
Ponto muito discrepante: xd = md± 3,0 deq 

Onde md é o valor da mediana e deq a distância interquartílica. Pela curva normal, os 
quartis distam da média em 0,674 o. Portanto, a distância interquartílica equivale a 
2x 0,674 o = 1,346 o. Os limites são, então: 

xd = x ± 1,5 x 1,346 o = x ± 2,02 o (discrepante) 

xd = x ± 3,0 x 1,346 a = x ± 4,04 o (muito discrepante) 

Estes limites são estabelecidos sem qualquer referência ao tamanho da amostra. 
Conforme enfatizado no presente trabalho, a amplitude de uma amostra normal 
aumenta com o tamanho da amostra. A amplitude aumenta indefinidamente. Por 
exemplo, o valor de 2,02o, considerado "discrepante" no método box&whisker, já é 
atingido em uma amostra normal de 17 pontos. A partir deste tamanho, todas as 
amostras normais conteriam pontos "discrepantes". 

Evidentemente, é incorreto estabelecer como limite um determinado afastamento da 
média, sem considerar o tamanho da amostra. O método box&whisker apenas indica 
que um determinado valor está relativamente longe da média. Isso não é suficiente; 
o ponto só deverá serconsiderado discrepante se o seu afastamento não for justificado 
pelo tamanho da amostra. 

O método também não é sempre "robusto" como pretende ser. Em amostras pequenas 

(menos de seis pontos), os quartis são influenciados pelo ponto discrepante e o 

método dá resultados evidentemente falsos. 

Por exemplo, considerando uma amostra hipotética de 4 pontos: 

xl = 8 x2 = 10 x3 = 12 x4 = 24 

O valor do ponto X4, sendo o dobro do ponto x3, é obviamente discrepante. 

Aplicando o método, obtemos: 

md = (10+12)/2 = ll 

quartil superior = (12 + 24) / 2 = 18 

quartil inferior = (8 + 10) / 2 = 9 

deq = 18 - 9 = 9 

xd = md+ 1,5 deq= 11 + 1,5 x 9 = 24,5 

Como xd > x4, o método box&whisker falhou em identificar o ponto x4 como 
discrepa nte. 
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O método proposto, aplicado ao mesmo exemplo, identifica corretamente o ponto x4: 

média = 13,5 

desvio padrão = 7,188 

diferença = 24-13,5 = 10,5 

z = (24-13,5)/ 7,188 = 1,461 

da tabela 3, para N=4, obtém-se zd = 1,391 

como z é maior que zd, o ponto x4 é discrepante. 

Pelo exposto, o método box&whisker não serve para identificar pontos discrepantes. 
Apenas chama a atenção sobre os pontos muito afastados da média. 



ANEXO 7 (da terceira parte) 
SIMULAÇÃO DE AMOSTRAGENS REAIS 

Foi simulada a obtenção de amostras aleatórias da distribuição normal, com média 10 
e desvio padrão 1, usando a função =INV.NORM(ALEATÓRIO();10;1) da planilha Excel 
2010. Foram obtidas quatro mil amostras de cada tamanho, sem pontos discrepantes. 
Calcularam-se as médias sucessivas; a diferença entre as médias foi dividida pelo desvio 
padrão calculado com a amostra. Para cada tamanho de amostra foram determinados 
os valores de d/a correspondentes a 50% (mediana) e a 100% (totalidade) dos pontos. 
O resultado é mostrado na tabela a seguir. 



N 


100% 


50% 


1 


0,7071 


0,7071 


2 


0,5603 


0,4609 


3 


0,463 


0,2725 


4 


0,3905 


0,1976 


5 


0,3339 


0,1548 


6 


0,2916 


0,1311 


7 


0,2583 


0,1055 


8 


0,234 


0,0936 


9 


0,2137 


0,0817 


14 


0,1494 


0,0529 


19 


0,1167 


0,0372 


24 


0,0961 


0,0286 


29 


0,0805 


0,0246 


39 


0,0632 


0,0183 


49 


0,052 


0,0142 


99 


0,0274 


0,007 


199 


0,0147 


0,0035 



No gráfico 8 abaixo estão indicados os valores da mediana (bolinhas azul claro) e da 
totalidade dos pontos (bolinhas brancas). Os valores experimentais convergem para o 
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valor 0,7071 em N=l, porque as estimativas da média e do desvio padrão não são 
independentes. 

O tamanho da amostra conforme a equação [12] também consta neste gráfico como 
uma linha amarela. Pode-se observar que todos os resultados experimentais ficam 
abaixo desta linha. Assim, a simulação confirma que os tamanhos indicados são 
adequados para os casos reais. 

a) determinação do fator de correção h 

Para considerar o efeito do tamanho da amostra sobre z' na equação [11], é necessário 
ajustar a equação aos dados experimentais. O fator de correção será determinado 
considerando que os três últimos valores da tabela acima (coluna 100%) são um pouco 
mais altos que os calculados com a equação [11]. Selecionando o valor experimental de 
d/o correspondente a N=99, com z' = 2,58, o fator de correção da equação é 

h = experimental / teórico = 0,0274 / (2,58 / (99 + 1)) = 1,062 

colocando em função linear de N: 

h = 1 + 0,062 x N / 99 = 1 + 0,00063 N = 1 + 0,001 N 

Com este fator de correção, os valores da equação [12] e tabela 4 ficam acima de todos 
os valores experimentais. Portanto, o nível de confiança do método é superiora 99%. 

b) relação entre os valores de d/o e o tamanho da amostra 

Os valores experimentais medianos são representativos da evolução média esperada 
dos valores de d/o com o tamanho da amostra. Para os valores maiores de N, foi 
ajustada uma reta (em azul, no gráfico 8), correspondente à equação empírica 

d/o = 0,7 / N equação [13] 

Em média, os valores de d/o variam inversamente proporcionais ao tamanho da 
amostra. Esta equação é utilizada no anexo 8, para estimar o limite máximo do 
tamanho da amostra. 
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GRÁFICO S - SIMULAÇÃO DE AMOSTRAS REAIS 
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ANEXO 8 (da terceira parte) 

LIMITES MÁXIMOS PARA O TAMANHO DA AMOSTRA 

Conforme visto na terceira parte, a relação d/o e, consequentemente, a contribuição 
de cada ponto adicional para a precisão do resultado, diminui à medida que o tamanho 
da amostra aumenta. Quando se torna desprezível ou nula, não há vantagem em 
aumentar o número de pontos. Foi atingido um limite máximo razoável para o 
tamanho da amostra. 

a) máximo quando os custos são significativos 

Quando os custos de amostragem são significativos, somente devem adicionados 
pontos à amostra enquanto a contribuição dos mesmos para a melhoria da precisão for 
importa nte. 

No início, o efeito de N sobre a precisão é muito acentuado, mas diminui rapidamente 
à medida que N aumenta. Conforme a tabela 4 do item 3.4, a diferença (d/a) varia 
entre 1,29 (para N=l) e 0,015 (para N=200). Portanto, a maior redução possível na 
diferença é 1,29 - 0,015 = 1,275. Verifica-se que uma grande parte desta redução já é 
alcançada com amostras relativamente pequenas. Com 30 pontos a diferença é 0,086; 
logo,a redução é 1,29 - 0,086 = 1,204, ou cerca de 94% da redução possível (neste 
raciocínio, estamos admitindo que o tamanho máximo da amostra é 200). 
Enquanto com 30 pontos se atingiu 94% da redução possível, para os 6% restantes 
seriam necessários mais 170 pontos. Vê-se que a melhoria na precisão dificilmente 
justificaria os custos adicionais. Portanto, quando os custos de amostragem são 
significativos, um limite razoável para o tamanho da amostra é de 30 pontos. 
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b) máximo quando os custos não são significativos 

Veremos a seguir que, mesmo quando os custos são baixos, há também um limite, a 
partir do qual a melhoria na precisão se torna desprezível. 

- Exatidão de medições 

Uma informação importante, relativa à exatidão que pode ser alcançada em medições, 
encontramos em Vuolo (Ref. 3, pág. 68). Como regra, quando se expressa a média de 
uma série de medições, o resultado deve ser acrescido da incerteza padrão (desvio 
padrão da média), que deve ser indicada com 2 algarismos significativos, se o primeiro 
algarismo for 1 ou 2. Mais de 2 algarismos significativos não tem utilidade prática, 
porque raramente se consegue uma exatidão maior. 

Se o primeiro algarismo for 2, uma unidade no segundo algarismo representa 5% do 
valor da incerteza padrão. Portanto, o limite do erro no desvio padrão da média é 5%. 
Esse autor também enfatiza que, ao expressar um resultado na forma x = média ± 
incerteza, os algarismos significativos devem ser consistentes, prevalecendo a precisão 
do valor menos exato. Por exemplo, para expressar corretamente um resultado tal 
como: x = 10,02 ± 1,0 o algarismo 2 não é consistente e deve ser ignorado. 

- Consequência para o tamanho da amostra 

Como as informações acima podem ser usadas para estabelecer um limite? 

Sabemos que a diferença entre as médias diminui com o tamanho da amostra, 

aproximadamente proporcional a l/N. Atingido o ponto em que esta diferença é menor 

que 5% do desvio padrão da média, deve prevalecer a precisão deste último. 

O erro no desvio padrão da média é igual a o/VN. Então, a partir deste ponto, as 

diferenças diminuem proporcionalmente a 1/VN. Este ponto pode ser determinado 

como segue. 

O desvio padrão da média (com a=l) é om = 1 /VN 

Pelas simulações realizadas (equação [13], anexo 7), a mediana das diferenças obtidas 
corresponde à relação empírica (a = 1): 
d = 0,7 / N 

Se a diferença é igual a 5% do desvio padrão da média, pode-se escrever 
0,7/ N = 0,05 /(N A 0,5) 
Donde se obtém 
N = 196 

A partir deste tamanho, as reduções nas diferenças, que antes eram proporcionais a 
l/N, passam a ser proporcionais a 1 / VN. O efeito do tamanho da amostra é muito 
menor e a melhoria na precisão se torna desprezível. Conclui-se que, mesmo se os 
custos de amostragem forem baixos, não há interesse em obter amostras com mais de 
aproximadamente 200 pontos. 

c) máximo absoluto 

A existência de um máximo absoluto também é apontada por Vuolo (Ref. 3, pág. 110). 
A incerteza padrão (desvio padrão da média) apresenta dois componentes: a incerteza 
estatística e a incerteza sistemática residual. A incerteza sistemática residual resulta do 
fato que não é possível eliminar completamente os erros sistemáticos de uma 
medição. 

A incerteza estatística pode ser diminuída aumenta ndo-se o número de medições. 
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A incerteza sistemática não varia. Assim, para um número muito grande de pontos, a 
incerteza estatística fica menor que a incerteza sistemática residual e esta última 
estabelece um limite final para a exatidão do resultado. Foi atingido o ponto em que é 
totalmente inútil aumentar o tamanho da amostra. 

A equação [12] do método proposto é coerente com este fato. Para valores muito 
grandes de N, o valor calculado de d/a tende a ficar constante. Já no método da 
literatura, conforme a equação [8], o erro poderia ser reduzido infinitamente. 
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No presente trabalho foram usados a planilha Microsoft Excel 2010 e o desenhador de 
gráficos Graph, versão 4.4.2, http://www.padowan.dk/ 
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